\section{Estado del Arte}

Con la llegada de las Tecnologías de la Información y la Comunicación la forma de distribución de contenidos ha ido variándose con mucha rapidez. Todavía con la aparición de Internet en el año de 1971 [Ref] y los servicios basados sobre éste, la información ha tomado nuevos canales de difusión, entre estos se destacan:\\
\begin{itemize}
\item Sitios web
\item Documentos disponibles en Internet
\item Servicios de mensajería instántanea
\item Redes Sociales
\item Correo electrónicos, etc.
\end{itemize}

Esta variedad de medios ha provocado que investigadores dediquen esfuerzos al desarrollo de algoritmos que permitan una recuperación y clasificación eficiente de la información dispersa, estos algoritmos se conocen de forma general como Algoritmos de Recuperación y Clasificación de Información.\\

Si se pudieran clasificar los canales de información que son actualmente usados por las personas con acceso a Internet, se podrían identificar dos grupos:
\begin{enumerate}
\item Medios destinados a la distribución de información pública o disponible para cualquier persona
\item Medios destinados a la distribución de información personal.
\end{enumerate}

Para el primer grupo de la clasificación anterior existen técnicas que han sido desarrolladas a través de los años y que actualmente son empleados de forma cotidiana. Google, Microsoft, Yahoo y otras grandes compañías invierten enormes cantidades de dinero año con año [Ref] en sus respectivas áreas de investigación en aras del perfeccionamiento del algoritmo que ocupan sus motores de búsqueda. \\

Sin embargo para la información que se comparte por los medios 'privados' existen aún grandes problemas a ser atacados por parte de los Investigadores e Ingenieros en Cómputo. Los problemas que han hecho que los avances en este rubro sean más lentos que en el otro grupo de canales, es el uso del Lenguaje Natural 'en su máxima expresión'. \\

Por un lado los medios de información pública son usados normalmente con el fin de tener un alcance mayor provocando que el lenguaje utilizado en ellos se haya estructurado de forma tal que es factible para los algoritmos de clasificación y recuperación buscar entre ellos resultados relevantes para alguna búsqueda especifica. Por el otro, nadie restringe la forma en que se comunican los usuarios de redes sociales o través del correo electrónico. \\

Existen numerosos trabajos y publicaciones de otras Universidades así como de Centros de Investigación  que hacen referencia a las técnicas más recientes o eficientes utilizadas en el tratamiento de la información proveniente del segundo grupo de canales de información, principalmente de correos electrónicos. \\

Antes de poder mencionar los avances que se han hecho en esta materia, sería correcto hacer la aclaración de lo que son los Sistemas de Recuperación y Clasificación de Información: \\

Un sistema de este tipo tiene como objetivo el buscar en una colección de documentos escritos en lenguaje natural con el propósito de recuperar información que pudiese serle útil al usuario. En contraste con los sistemas de base de datos que requieren datos sumamente estructurados y tienen una semántica formal, los sistemas de recuperación de información trabajan con una estructura de texto natural. A diferencia de los sistemas expertos, los sistemas de recuperación de información no tratan de deducir o generar respuestas específicas sino que obtienen contenido similar y correspondiente a la pregunta o búsqueda. \\

Uno de los principales problemas en los que se concentra parte de la investigación es en la clasificación de correo malicioso, mismo para el cual se han desarrollado desde técnicas básicas y comunes como la comparación del correo contra una base de datos  bayesiana [1][2] hasta otras técnicas más complejas basadas en distintas ramas de la Computación. \\

Un ejemplo de estas técnicas es la explicada por Dong-Her Shiha,Hsiu-Sen Chianga y C. David Yen[3] en su trabajo titulado Classification methods in the detection of new malicious emails conocida como Clasificador Heurístico de Spam, los clasificadores heurísticos de spam toman como base de su análisis el estudio de varias partes de un correo electrónico: las cabeceras, el contenido, su comparación cotra las listas negras de spam existentes y la comparación de las firmas de los correos electrónicos, a diferencia de otros tipos de clasificadores este no da una importancia total al contenido del correo electrónico. \\

La eficiencia demostrada por esta técnica llega a alcanzar hasta un 95\% [Ref 3] con un porcentaje muy bajo de falsos positivos. \\

Sin embargo para efectos del proyecto a desarrollar las técnicas que se enfocan más en el análisis del contenido que en el de los demás elementos de un correo electrónico pueden ser más útiles. \\